# -*- coding: utf-8 -*-
"""
@Time    : 2024/7/23 11:55 
@Author  : ZhangShenao 
@File    : 4.使用URL网页加载器.py 
@Desc    : 使用WebBaseLoader,加载指定网页的数据

WebBaseLoader加载器底层会从HTML网页中加载所有文本,去除HTML相关标签,并将所有文本进行合并
"""
from langchain_community.document_loaders import WebBaseLoader

# 创建WebBaseLoader
loader = WebBaseLoader(web_path='https://www.imooc.com/')  # 指定网页URL

# 加载网页数据
doc = loader.load()[0]
print(f'page_content: {doc.page_content}')
print(f'metadata: {doc.metadata}')
